4К 


УДК 004.89:004.823 


О.Б. Кунгурцев, С.М. Бородавкін 
Одеський національний політехнічний університет, м. Одеса, Україна 
зрогодаукіт(адопемо ода 


Застосування мереж фреймів для побудови 
моделі вилучення фактів з текстів 
природною мовою 


Розроблена модель вилучення фактів з текстів природною мовою та метод порівняння таких моделей 
з метою встановлення семантичної відповідності вхідних текстів. Даний метод може бути використаний 
при розробці інтерфейсу користувача інформаційної системи природною мовою, що дозволяє гнучко 
формувати запити до системи та синтезувати її вихідні повідомлення. 


Вступ 


При розробці інформаційних систем (ІС) основною задачею, що підлягає 
вирішенню, є задача пошуку інформації. Маючи порівняно просте рішення у випадку, 
коли інформація знаходиться у формалізованих структурах (РБД тощо), дана задача 
значно ускладнюється у випадку, коли ІС має порівнювати, аналізувати та синтезувати 
інформацію з порізнених фактів, розміщених у текстах природною мовою. Прикладами 
таких систем можуть служити пошукові системи, системи машинного перекладу, системи 
автоматизованої перевірки відповідей учня тощо. Іншою важливою задачею є задача кла- 
сифікації об'єктів, якими оперує ІС. Чи відносяться до одного і того ж класу однаково 
пойменовані об'єкти різних БД? Чи про одне й те саме поняття йдеться в двох текстах 
природною мовою? При роботі з документами процес автоматичного структурування 
текстової інформації, поданої природною мовою, замінює експертний процес виділення 
фактів та об'єктів, що виконується вручну. 

У даній роботі проводиться узагальнення підходу до вирішення даних задач та 
виконується формалізація математичної моделі їх вирішення. Розроблений метод 
аналізу текстів природною мовою та збереження знань (фактів, подій, об'єктів), 
поданих у ньому. Також розроблений метод порівняння моделей знань, отриманих із 
різних вхідних текстів. 

Процес аналізу текстів природною мовою з метою виділення фактів (побудови 
моделі знань або семантичної моделі) поділяється на наступні етапи: 

1. Синтаксичний розбір. На цьому етапі відбувається розбір речень вхідного 
тексту природною мовою з метою виділення їхніх членів та відношень між ними. 
Виконання цього етапу забезпечує: а) перевірку вхідного тексту на синтаксичну ко- 
ректність, б) створення дерева розбору та підготовку даних для наступного етапу 
аналізу. 

Задача синтаксичного розбору текстів природною мовою ускладнюється необхід- 
ністю підготовки словників (морфологічного словника, що містить граматичну 
інформацію про слова, словника оборотів, тощо), що, в свою чергу, потребує значних 
зусиль та є полем незалежних досліджень. Враховуючи це, а також наявність вже 
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готових рішень у даній сфері (1), (2|, для виконання синтаксичного аналізу в даній 
роботі була вибрана система Рісіа5соре, розроблена ТОВ «Дісішт» (1). Даний вибір 
обумовлений, в першу чергу, тим, що ця система дозволяє виконувати синтаксичний 
аналіз неповних мовних конструкцій (наприклад: «Пішохід повинен керуватися сигна- 
лами пішохідного світлофору, а при його відсутності -- транспортного світлофору». 
Відновлене речення: «Пішохід повинен керуватися сигналами пішохідного світлофору, а 
при відсутності (пішохідного світлофору) (пішохід повинен керуватися сигналами| 
транспортного світлофору». У квадратних скобках наведені відновлені слова (заміна 
займенника «його» та відновлення еліптичної конструкції: у вхідному реченні тире 
замінює частину предикативної групи). 

2. Семантичний аналіз. В рамках даного етапу на основі синтаксичного дерева 
розбору тексту природною мовою виконується побудова моделі знань, до якої 
подаються наступні вимоги: 

1) повнота - модель повинна зберігати знання, закладені у неї, повністю, без 
викривлень та скорочень; 

2) впорядкованість - модель повинна зберігати свою структуру при рості кіль- 
кості «одиниць знань», закладених у неї, не перетворюючись на хаотичну множину 
елементів, пов'язаних між собою; 

3) простота - елементи системи та зв'язки між ними повинні бути простими та 
доступними для аналізу людиною. 

У ході аналізу різних когнітивних структур (а саме семантичних мереж і мереж 
фреймів), внугрішньою формою уявлення в системі була вибрана мережа фреймів (31, 
яка, на відміну від семантичної мережі, дозволяє більш упорядковано організувати 
базу знань системи і забезпечує впорядковування хаосу, властивого структурам на 
основі семантичної мережі. Фрейм одночасно містить великий обсяг знань 1 в той же 
час є достатньо гнучким для того, щоб бути використаним як окремий елемент бази 
даних |4). Таким чином, як база знань може бути представлений текст природною 
мовою (набір текстів), що являє собою сукупність фреймоподібних одиниць (мережа 
логічно зв'язаних між собою фреймів 1 їх слотів, де зв'язками будуть певні відношення, 
що відображають взаємодію між об'єктами фреймів, їх ієрархію і характеристики). 


Семантичний аналіз 


Існує декілька підходів для побудови моделі знань на основі фреймів із вихідних 
даних синтаксичного розбору. Так, в роботі (5| пропонується використання граматики 
узагальнених складових (СР5С, Сепегайгей Ріга8е Зігастиге Стапітаг) з метою подання 
інформації з тексту природною мовою у вигляді формалізованих логічних форм, більш 
придатних для автоматизованого аналізу, показано також, що дана задача є МР-трудною; 
разом з цим існує підхід для перетворення СР5С-форм у мережу фреймів |б|. В роботі |7| 
описаний підхід до побудови фреймової мережі з тексту китайською мовою, полегшений 
попередньою розстановкою синтаксичних маркерів -- ознак, що підкреслюють риторичні 
відношення між частинами речення (підпорядкування та координації). В цій роботі роз- 
становка синтаксичних маркерів замінює синтаксичний розбір. Нарешті, в роботі |8| зобра- 
жений підхід до побудови семантичної мережі з тексту англійською мовою та наведені 
рекомендації щодо її перетворення у мережу фреймів. 

Однією з головних проблем семантичного аналізу, який виконується на основі 
попереднього синтаксичного розбору, є змістове поєднання речень між собою. Так, 
оскільки одне й те саме поняття (фрейм) може розкриватися (наповнюватися атрибу- 
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тами) протягом кількох речень, існує проблема того, як пов'язати, наприклад, імен- 
ник «кіт» із займенником «він» у парі речень «Кіт сидить на вікні. Він дивиться на 
вулицю». Навіть за відсутності безпосереднього синтаксичного зв'язку між конструкціями 
природної мови «сидить на вікні» та «дивиться на вулицю», в ході семантичного 
аналізу їх необхідно поєднати з фреймом «кіт». Такі зв'язки називаються анафорич- 
ними; те речення або його частина, в якому безпосередньо згадується об'єкт (назва 
фрейму), називається антецедентом; інше речення, в якому властивості (атрибути) 
фрейму розкриваються без прямого посилання на нього, називається анафором. 
Висловлювання, що включає анафор без антецеденту, навіть синтаксично завершене, 
має неповний зміст - у інших випадках зміст необхідно відтворювати через аналіз 
анафоричних зв'язків. Розробці автоматичного методу вирішення цієї проблеми при- 
свячена робота |91; крім того, система Дісіабсоре, що використовується, має властивість 
часткового відновлення анафоричних зв'язків (1 |, а саме: 

а) заміна іменника на прикметник («Зелений сигнал світлофора дозволяє, а чер- 
воний |сигнал світлофора|- забороняє рух»); 

6) відсутність прямого додатку («При ДТІ водій зобов'язаний зупинити |транс- 
портний засіб) та не рухати з місця транспортний засіб»); 

в) відсутність частини висловлювання при порівняльному прислівнику («Машина 
має чотири колеса або більше |чотирьох коліс/»); 

г) заміна іменника на займенник; 

г) еліптичні конструкції (заміна фрагмента складного речення на тире). 


Модель вилучення фактів 


У даній роботі фрейм розглядається як структура, що містить пойменовані еле- 
менти (слоти). Фрейми та їхні слоти наділяються певною семантикою, залежно від 
предметної області, в якій вони використовуються. Наприклад, фрейм може опису- 
вати деяке поняття, тоді слоти інтерпретуються як дії, властиві даному поняттю або 
пов'язані з ним. Задача вилучення фактів зводиться до: 

1) виконання синтаксичного аналізу С вхідного тексту природною мовою, що 
може бути виражений перетворенням (1): 


С5зг (1) 


де І, - вхідний текст природною мовою, Т - дерево, або, у загальному випадку, ліс 
синтаксичного розбору (ліс виникає у випадку, коли синтаксичний аналіз може бути 
виконаний лише частково внаслідок неможливості відтворення анафоричних зв'язків, 
змістової неповноти або синтаксичної некоректності тексту); 

2) виконання семантичного аналізу, результатом якого може виступати виявлення 
серед результатів синтаксичного аналізу Т-присутності деякого фрейма Й; та визначення 
його слотів 15;) відносно фрагментів дерева (лісу) синтаксичного розбору Т. Крім того, 
для кожного слота 5; (характеристики фрейма 7) має значення кількість разів його появи 
у вхідному тексті М. Той факт, що деякий слот 5); зустрівся у фреймі М; разів, а інший 
слот 5 - М разів, дає змогу встановити глибину розкриття кожної з характеристик, 
вираженої відповідними слотами. Таким чином, частоту появи слота 5; у фреймі Е; можна 
представити як 


Щ 2 
вуз 159 


0, 5, 20 


5,420 


(2) 


204 «Искусственньій интеллект» 472009 


Застосування мереж фреймів для побудови моделі вилучення фактів з текстів... 4К 


де М; - кількість разів появи слота 5); у фреймі Б, 


(5. - міцність множини слотів 
й їі 


фрейма Б). 
Отже, семантичний аналіз полягає у формуванні для лісу синтаксичного розбору 
тексту, що аналізується, множини четвірок виду: 


ау - «НЕ Ве ії, Му», (3) 


де Ти - фрагмент дерева синтаксичного розбору, 7; - виявлений фрейм, 5) - слот, що 
належить фрейму 2; та є виявленим значенням фрагмента Т,, М; -- кількість разів появи 
слота 5; у фреймі Б. Отже, семантичний аналіз можна представити перетворенням виду: 


О: Т-з (аг). (4) 
Після того як множина четвірок а; сформована, можна здійснити перетво- 
рення виду: 


ж ж 
Р: а; -»ау, й; 


зе РЕ УН (5) 


замінивши абсолютні величини М; на відповідні їм відносні величини Р). 
Можливий формальний опис структури фреймів та слотів наведений у роботі (41. 
Виходячи з (1), (4), (5), модель вилучення фактів можна описати системою (6): 


Е-«С,О,Р». (6) 


Наведемо приклад виконання семантичного розбору тексту «Попереду знаходиться 
відома вулиця. На ній мешкав Пушкін. Вулиця знаходиться у Одесі». 
Множина трійок з (3), разом із частотою появи слотів (2), має вигляд: 


ат 7 З "Попереду", ПОПЕРЕДУ, 9, 02; Рі-0 
аз - "знаходиться", ЗНАХОДИТИСЬ, 511,12) Ро - 0.33 
аж» - "знаходиться", ЗНАХОДИТИСЬ, 541,22; Р»- 0.66 


аз є «"у Одесі", ОДЕСА, 0»; Рао0 
азі 7 З"відома", ВІДОМА, 2, 02; раген 
аді - «"Вулиця", ВУЛИЦЯ, 531, 12; Ра - 1 
аз - З "мешкав", МЕШКАТИ, 551, 12; Ра - 1 
авт 7 З "Пушкін", ПУШКІН, 9, 0»; Рві- 0 


Міцність даної множини дорівнює кількості слотів в усіх виявлених фреймах. 


Порівняння фактів 


При використанні моделі (6) постає проблема встановлення того, чи дві моделі 
ВЕ і Є, описують одну й ту саму множину фактів. Розв'язання даної проблеми дасть 
змогу вирішувати наступні задачі: 

1. Задача пошуку інформації (модель Е)) у документах (модель Б»). 

2. Задача класифікації (чи належить об'єкт, що описується моделлю Б, до 
класу об'єктів, що описується моделлю /.). 

3. Задача верифікації синтезованої відповіді системи (природною мовою) відносно 
множини фактів, про яку система повідомляє користувача (наскільки правильно була 
синтезована відповідь системи природною мовою та наскільки повно вона відображає 
інформацію, що зберігається). Ця задача зводиться до задачі (1). 
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Задачу пошуку можна виконати шляхом накладання фреймових мереж моделей 
одна на одну та порівняння множин фреймів, їхніх слотів та відношень між ними. 
При цьому слід враховувати той факт, що викладення одних 1 тих самих фактів в 
двох різних вхідних текстах із використанням різних відмінків, типів речень, тощо, 
може призвести до появи відмінностей у фреймових мережах моделей. Щоб виклю- 
чити дану проблему, в роботі |4| пропонується використовувати матрицю коефіцієн- 
тів подібності семантичних відношень з метою нестрогого порівняння фреймових 
мереж із певною ймовірністю для кожного з відношень. 

Задача 1 може бути зведена до пошуку значення функції відповідності між моде- 
лями БЕ і Є: 

КЕ, 55) - КЕ, В) х КЕ, В), (7) 


де Ку - функція відповідності між множинами фреймів обох моделей, Кз - функція 
відповідності між множинами слотів фреймів; обидві можуть приймати значення від 
0 до 1. Таким чином, функція К також може приймати значення з |0:1|1, яке є 
характеристикою відповідності даних моделей. 

Для визначення відповідності між множинами фреймів необхідно визначити ті 


З 5 Же ж 
з них, які є ключовими для порівняння (множини К і Б, ). Це може зробити, 


наприклад, користувач або розробник системи. Враховуючи це, функція Ку; може бути 
представлена у вигляді: 


В (ВЕ, ет(В, В), (8) 


де " - відношення між множинами ключових фреймів: 

-- якщо вирішується задача пошуку даних в моделі Є; щодо запиту, поданого в моделі Б», 

то г - відношення зворотнього включення ( 3 о Е ); 

- якщо виконується верифікація моделі Є, тобто перевіряється, чи містить модель Е» 

всі факти (фрейми) з Б, то г - відношення прямого включення ( 3 с Е; ) тощо. 
Визначимо функцію відповідності слотів Кз. Для цього відсортуємо слоти 

(5л..4Уїь п - Кількість слотів фрейма) кожного фрейма в обох моделях у порядку 

зменшення їхньої частоти. Нехай 5ял...5їь К З п - слоти, які є ключовими для 

визначення фрейма КЕ), за відсутності яких не можна вважати даний фрейм визначеним. 


Частота Ра останнього ключового фрейма буде виступати «порогом», тобто всі 
слоти із меншою частотою появи будуть при порівнянні проігноровані. Тоді 
функцію Кз можна представити у вигляді (9): 
1,45, є 5,35 є 5, : Р 2 Ра бо РА 2 Рі 
б - . КЕ 1, б щ- 1, 
бота пк нс Арно, 9) 
0, віншому випадку 


де 55 -- деякий ключовий слот із моделі (/, 5 ю -- деякий ключовий слот із моделі 8»; 


1 ; 5 ооо 8 : 722 ; 
Рі - порогове значення частоти появи слотів у і-му фреймі з моделі ЕЛ (Ри, від- 


повідно, - з моделі Б»); Р; та Р? - частоти появи слотів 55 і 57 відповідно. Функція 


приймає значення І тоді і тільки тоді, коли для кожного з ключових слотів в моделі 
Е; знайдеться відповідний слот в моделі 8», який також повинен бути ключовим; у 
всіх інших випадках функція приймає значення 0. 

Вирішення задачі 2 класифікації (встановлення відповідності об'єктів, що опи- 
суються моделлю Й, до класу об'єктів, що описується моделлю Б») може бути вико- 
нане наступним чином. Нехай модель Е» описує деякий клас об'єктів шляхом визна- 
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4К 


чення фрейма ЕК та його слотів (5). Подібно до (9), користувач чи розробник ІС 
визначають множину ключових слотів, які обов'язково повинні бути присутніми у 
фреймі з ДЕ; для того, щоб його можна було віднести до класу, визначеного в Б». 
Відповідь на питання, чи належить фрейм Й; з моделі Е| до класу, визначеного 
фреймом Е, можна отримати шляхом порівняння множин їхніх ключових слотів. Для 
цього може бути використаний вираз (9). 


Висновки 


На основі аналізу структур, що використовуються для інтелектуальної обробки 
даних, була розроблена модель для вилучення і збереження фактів з текстів природною 
мовою. Використання даної моделі дозволить виконувати проектування інформаційних 
систем із природномовним інтерфейсом. Запропонований метод порівняння даних 
моделей між собою для вирішення задач пошуку 1 класифікації об'єктів. 
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А.Б. Кунгурцев, С.Н. Бородавкин 

Применение сетей фреймов для построения модели извлечения фактов из текстов 

на естественном язьтке 

Разработана модель извлечения фактов из текстов на естественном язьтке и метод сравнения таких моделей с 
целью установления семантического состветствия входньтх текстов. Данньюй метод может бьтть использован 
при разработке интерфейса пользователя информационной системьт на естественном язьтке, что позволяєт 
гибко формировать запросьт к системе и синтезировать ей вьтходньте сообщения. 
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Кгате ХеїууогК5 Арріїсабіоп о ре Реусіортепі ої пе Моає! ої Касі5 Ехігасбіоп 

їгот пе Хаїига! Гапецаєє Техіє 

Тре плоді ої їБе Касів ехігасйоп Їгот Бе Кехі5 оп ре пагига! Іапецаєє апа Фе сотрагі5оп пеїодй ої 5исі 
тодеіз аге деусіоредй, утіїв Ше ригробе ої езіабінятя Фе зеплапіїс соггезропдепсе Бебуесп Ше шриї (ехіз. 
ТЬі8 тефоа сап Бе п5ей Тог бе Феуе|ортепі ої "Пе іпіогтлайоп 5у5кепаі п5ег іпіегіасе Ба5ед оп Фе пакига! 
Іапецаєє, міс аПомує а Пехібіе сгеайоп ої пе дшпегіе5 о Бе 5у5їет апа 5упіПезі7е її5 опіриї плез5аєєз. 
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